Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/enablingteam/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Enabling.team Insights | Telegram Webview: enablingteam/53 -
Telegram Group & Telegram Channel
В начале 2024 года вышел отчет по состоянию Site Reliability Engineering в индустрии — The SRE Report 2024. Это уже 6-е издание отчета, исследования проводятся с 2018 года рабочей группой, состоящей из сотрудников Catchpoint и приглашенных экспертов. В подготовке текущего отчета участвовали: Niall Murphy (автор книг Site Reliability Engineering и The Site Reliability Workbook), Alex Hidalgo (автор книги Implementing SLO), Alex Elman (Indeed), Sarah Butt (SentinelOne), Kurt Andersen (Clari, SREcon) и др. Про компанию Catchpoint известно, что они разрабатывают SaaS платформу для Digital Experience Monitoring, аналогами которой являются платформы от Datadog, Dynatrace и New Relic. Исследование проводилось в форме опроса, в котором в этом году приняло участие 433 представителя индустрии, большинство из Америки и крупных компаний (больше 1000 сотрудников) из следующих индустрий: Technology, Financial, Healthcare, Government и Professional services.

Что интересного мы отметили в отчете:
1. В небольших компаниях (до 100 инженеров) функция SRE централизована в одной команде, поддерживающей несколько сервисов. С ростом компании происходит разделение на продуктовые и платформенные команды, что приводит к изменению топологий и структуры SRE команды;
2. Основные трудности с которыми сталкиваются SRE команды: планирование бюджета и ресурсов, приоритизация и архитектура. При этом найм, взаимодействие с командами и прозрачность работы отмечают реже;
3. С точки зрения влияния SRE на бизнес (Business Value) отмечают следующие факторы: Операционная эффективность (Operational Efficiencies), Customer Satisfaction и Customer Experience, Repair Times и реже — соблюдение SLA и Velocity;
4. Наиболее сложными аспектами решения инцидентов выделяют диагностику и поиск проблем, эскалацию и координацию между участниками, извлечение уроков и обучение на инцидентах;
5. Основное внимание уделяется решению инцидентов, оказывающим значительное влияние на пользователей, инцидентам высокого уровня (High severity) и тем, которые видны публично;
6. В качестве областей для улучшения процессов надежности выделяют: смену фокуса с исправлений на обучение на инцидентах, установление связей между инцидентами, выполнение action items после разбора инцидентов;
7. Разбор инцидентов, проведение ретроспектив и подготовка постмортемов лидируются в основном представителями SRE команд и руководителями, отдельная выделенная incident team встречается редко и в больших компаниях. При этом половина участников отмечает что уделяют недостаточное время для разбора инцидентов;
8. Вне дежурств SRE команды тратят в среднем 50% времени на инженерную работу, 25% времени на операционную работу (Toil) и 15% на прерывания;
9. Большинство компаний используют от 2 до 5 различных инструментов и систем для мониторинга и наблюдаемости. Не только из-за разного функционала и сценариев использования, но часто в следствии дублирования. Количество инструментов увеличивается с ростом компании;
10. Кроме мониторинга внутренних сервисов подчеркивается важность мониторинга внешних сервисов, таких как BGP, CDN, SASE, SaaS, внешние DNS и API;
11. Наиболее часто используемые метрики для измерений: Upwww.tg-me.com/Availability, Performance/Response time, Latency и Error rate. Saturation упоминается гораздо реже, а SLOs разделяют на два типа: Uptime SLOs и Performance SLOs.



tg-me.com/enablingteam/53
Create:
Last Update:

В начале 2024 года вышел отчет по состоянию Site Reliability Engineering в индустрии — The SRE Report 2024. Это уже 6-е издание отчета, исследования проводятся с 2018 года рабочей группой, состоящей из сотрудников Catchpoint и приглашенных экспертов. В подготовке текущего отчета участвовали: Niall Murphy (автор книг Site Reliability Engineering и The Site Reliability Workbook), Alex Hidalgo (автор книги Implementing SLO), Alex Elman (Indeed), Sarah Butt (SentinelOne), Kurt Andersen (Clari, SREcon) и др. Про компанию Catchpoint известно, что они разрабатывают SaaS платформу для Digital Experience Monitoring, аналогами которой являются платформы от Datadog, Dynatrace и New Relic. Исследование проводилось в форме опроса, в котором в этом году приняло участие 433 представителя индустрии, большинство из Америки и крупных компаний (больше 1000 сотрудников) из следующих индустрий: Technology, Financial, Healthcare, Government и Professional services.

Что интересного мы отметили в отчете:
1. В небольших компаниях (до 100 инженеров) функция SRE централизована в одной команде, поддерживающей несколько сервисов. С ростом компании происходит разделение на продуктовые и платформенные команды, что приводит к изменению топологий и структуры SRE команды;
2. Основные трудности с которыми сталкиваются SRE команды: планирование бюджета и ресурсов, приоритизация и архитектура. При этом найм, взаимодействие с командами и прозрачность работы отмечают реже;
3. С точки зрения влияния SRE на бизнес (Business Value) отмечают следующие факторы: Операционная эффективность (Operational Efficiencies), Customer Satisfaction и Customer Experience, Repair Times и реже — соблюдение SLA и Velocity;
4. Наиболее сложными аспектами решения инцидентов выделяют диагностику и поиск проблем, эскалацию и координацию между участниками, извлечение уроков и обучение на инцидентах;
5. Основное внимание уделяется решению инцидентов, оказывающим значительное влияние на пользователей, инцидентам высокого уровня (High severity) и тем, которые видны публично;
6. В качестве областей для улучшения процессов надежности выделяют: смену фокуса с исправлений на обучение на инцидентах, установление связей между инцидентами, выполнение action items после разбора инцидентов;
7. Разбор инцидентов, проведение ретроспектив и подготовка постмортемов лидируются в основном представителями SRE команд и руководителями, отдельная выделенная incident team встречается редко и в больших компаниях. При этом половина участников отмечает что уделяют недостаточное время для разбора инцидентов;
8. Вне дежурств SRE команды тратят в среднем 50% времени на инженерную работу, 25% времени на операционную работу (Toil) и 15% на прерывания;
9. Большинство компаний используют от 2 до 5 различных инструментов и систем для мониторинга и наблюдаемости. Не только из-за разного функционала и сценариев использования, но часто в следствии дублирования. Количество инструментов увеличивается с ростом компании;
10. Кроме мониторинга внутренних сервисов подчеркивается важность мониторинга внешних сервисов, таких как BGP, CDN, SASE, SaaS, внешние DNS и API;
11. Наиболее часто используемые метрики для измерений: Upwww.tg-me.com/Availability, Performance/Response time, Latency и Error rate. Saturation упоминается гораздо реже, а SLOs разделяют на два типа: Uptime SLOs и Performance SLOs.

BY Enabling.team Insights


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/enablingteam/53

View MORE
Open in Telegram


Enabling team Insights Telegram | DID YOU KNOW?

Date: |

The SSE was the first modern stock exchange to open in China, with trading commencing in 1990. It has now grown to become the largest stock exchange in Asia and the third-largest in the world by market capitalization, which stood at RMB 50.6 trillion (US$7.8 trillion) as of September 2021. Stocks (both A-shares and B-shares), bonds, funds, and derivatives are traded on the exchange. The SEE has two trading boards, the Main Board and the Science and Technology Innovation Board, the latter more commonly known as the STAR Market. The Main Board mainly hosts large, well-established Chinese companies and lists both A-shares and B-shares.

Telegram is riding high, adding tens of million of users this year. Now the bill is coming due.Telegram is one of the few significant social-media challengers to Facebook Inc., FB -1.90% on a trajectory toward one billion users active each month by the end of 2022, up from roughly 550 million today.

Enabling team Insights from tr


Telegram Enabling.team Insights
FROM USA